该报告分析了共14个变量,57356条数据。

## [1] 57356    14
## 'data.frame':    57356 obs. of  14 variables:
##  $ ListingKey               : Factor w/ 113066 levels "00003546482094282EF90E5",..: 7180 6647 6720 6731 6812 7056 7161 7170 6825 6827 ...
##  $ ListingCreationDate      : Factor w/ 113064 levels "2005-11-09 20:44:28.847000000",..: 14184 6429 15374 100485 53246 2704 16841 73145 69285 33837 ...
##  $ CreditGrade              : Ord.factor w/ 8 levels "NC"<"HR"<"E"<..: 5 2 5 6 2 8 4 4 3 7 ...
##  $ Term                     : int  36 36 36 36 36 36 36 36 60 36 ...
##  $ LoanStatus               : chr  "Completed" "Completed" "Completed" "Defaulted" ...
##  $ BorrowerRate             : num  0.158 0.275 0.133 0.143 0.318 ...
##  $ ListingCategory..numeric.: int  0 0 0 1 13 0 0 15 1 1 ...
##  $ Occupation               : Factor w/ 68 levels "","Accountant/CPA",..: 37 37 68 50 37 43 43 52 49 21 ...
##  $ EmploymentStatusDuration : int  2 NA 19 1 121 NA 36 3 25 10 ...
##  $ DelinquenciesLast7Years  : int  4 0 1 0 0 0 5 0 0 0 ...
##  $ DebtToIncomeRatio        : num  0.17 0.06 0.27 0.18 0.49 0.12 0.09 0.39 0.11 0.26 ...
##  $ IncomeRange              : Factor w/ 8 levels "$0","$1-24,999",..: 4 7 2 4 5 7 4 4 4 6 ...
##  $ LoanOriginalAmount       : int  9425 3001 1000 4000 4000 10000 3000 2000 4000 4000 ...
##  $ LoanOriginationDate      : Date, format: "2007-09-12" "2007-01-17" ...

单变量探索

信用评级

贷款的信用评级分布较平均,各等级间的数量差距不明显。

贷款期限

Prosper平台上的贷款以中长期为主,且三年期占绝大多数。

贷款状态

Prosper平台上的违规率在33.2%左右,还是蛮高的。

贷款利率

平台上的借款利率多集中在0.06至0.35这个区间。贷款利率似乎与贷款期限关系不明显,未出现如经验判断的“期限越长,利率越高”。

贷款用途

大部分人在申请贷款时选择了1-Debt Consolidation,有可能是默认项,猜测借款用途可能没有分析意义。

过去7年违约次数

大部分借款人在过去7年的违约次数是0,说明Prosper平台借款人的信用状况较好。

债务收入比

95%的借款人的负债收入比小于0.5,说明Prosper平台借款人的资质较好。

月收入范围

大部分借款人的月收入在25000至50000区间。

借款人职业

Prosper平台上选择“Other”的借款人最多,说明很多人并没有选择真实的职业。

单变量分析结论

你的数据集结构是什么?

见报告开头

你感兴趣的问题是什么?

  • 哪些人贷款后会按时还款,哪些人会赖账
  • 贷款利率的趋势
  • Prosper平台的发展情况是否良好

你是否创建了新变量?

没有

在已经探索的特征中,是否存在异常分布?你是否对数据进行了一些清洁、调整或改变数据的形式?如果有,你为什么会这样做?

做了一些清理和整洁方面的操作,可以参照上面的代码

双变量分析

信用评级与违约的关系

平台信用评级越高的人,违约的可能性越低。符合人们经验的判断。

贷款期限与违约的关系

  • 一年期的还款完成度最高;
  • 五年期的贷款有一半左右的违约情况出现;
  • 三年期的贷款也出现了三成以上的违约率;
  • 可以看出短期贷款的违约率更低

贷款利率与违约的关系

违约贷款的利率明显高于按时还款的部分。一方面,贷款利率高是由于用户自身的资质差;另一方面,高利率又使得用户更加难以承受而违约。

借款人收入与违约的关系

随着年收入的增加,违约比例在逐渐下降。

工作时长与违约的关系

随着工作年限的增长,违约率逐渐下降。

债务收入比与违约的关系

债务收入比越低的人更具有还款能力,平台整体的用户债务收入比小于0.6,资质很好。

双变量分析结论

  • 信用评级越低,违约率也很高
  • 借款时利率越高,违约的情况越多
  • 贷款期限越长,越容易出现违约的情况
  • 工作时间越长和收入越高,出现违约的可能性越小
  • 债务收入比越低,越具有还款能力

多变量分析

借款利率、信用评级与违约的关系

信用评分越高,利率越低,违约率也越低;反之信用评分越高,利率也越高,违约率也越高。

借款金额、信用评级与违约的关系

信用评级越高,贷款金额越小,违约率也越低;在相同的信用评级上,随着贷款金额的增加,违约率也在提高。

借款利率、借款金额与违约的关系

  • 平台以小额贷款为主;
  • 贷款金额越小,利率越低,违约率也越低;反之贷款金额越大,利率越高,违约率也越高。

借款利率、贷款期限与违约的关系

贷款期限越短,利率越低,违约率也越低;相同的利率下,贷款期限越短,违约率越低。

借款利率、收入范围与违约的关系

收入越高,贷款利率越低,违约率也略低;相同利率下,收入越高,违约率越低。

多变量分析结论

  • 信用评分越高,利率越低,违约率也越低
  • 随着贷款金额越大,利率也越高,违约率变高
  • 贷款期限越短,利率越低,违约率也越低;相同的利率下,贷款期限越短,违约率越低
  • 收入越高,贷款利率越低,违约率也略低;相同利率下,收入越高,违约率越低

最终图与总结

图一

描述一

信用评级越高,贷款金额越小,违约率也越低;在相同的信用评级上,随着贷款金额的增加,违约率也在提高。

图二

Description Two

信用评级越高,违约率就越低;相反的信用评级越低,越会出现违约的情况。

图三

描述三

信用评级越高,借款利率越低,违约率也越低;相同利率下,信用等级越高,违约率越低。


反思

分析过程中遇到的难点?

  1. 理解原始数据集包含的81个变量
  2. 在理解数据集的基础上提出感兴趣的问题
  3. 围绕感兴趣的问题来精简变量至14个

分析过程中成功的发现部分?

在理解数据变量信用评级CreditGrade的时候,注意到在2009年7月这个时间点前后,使用的变量发生了改变,在2009年7月之前使用的是 CreditGrade,而之后则使用了ProsperRating..Alpha.;这个我处理的方式是将2009年7月之后的信用评级变量CreditGrade使用ProsperRating..Alpha.来填充。

未来如何进一步丰富分析内容和提高报告质量?

希望能收集到更多的一年期限的数据,这样可能更好看的是否一年期贷款的还款率更好,这样更有利于指导公司是否应该去引导很多的用户选择一年期的贷款。